在农业环境中的现代除草剂应用通常依赖于将除草剂分配给作物和杂草相似的或便携式喷雾器的大型喷雾器,这些喷雾器需要劳动密集型手动操作。前一种方法导致过度使用除草剂并减少作物产量,而后者在大规模操作中经常站立。本文介绍了能够基于计算机视觉的导航,杂草检测,完整的现场覆盖以及\ $ 400下的计算机视觉的行作物的杂草管理的第一个完全自主机器人。目标应用程序是在裁剪领域中的自主行行杂草控制,例如,亚麻和油菜,在农作物之间的间距像一只脚一样小。所提出的机器人足够小,可以在植物生长的所有阶段之间通过植物生长的阶段,同时检测杂草和喷洒除草剂。充电系统包括新设计的机器人硬件,斜坡,机器人充电臂和移动充电站。采用集成视觉算法,有效地帮助充电器对齐。结合,它们使机器人能够在现场中连续工作而不获得电力。此外,将与预处理技术相结合的基于颜色的轮廓算法用于依赖于从车载单手套摄像机的输入上的鲁棒导航。将这种紧凑的机器人纳入农场可以帮助自动化杂草控制,即使在增长的后期阶段,并通过精确定位杂草减少除草剂。机器人平台在北达科他州的亚麻籽领域进行了现场测试。
translated by 谷歌翻译
深度神经网络的成功在很大程度上取决于大量高质量注释的数据的可用性,但是这些数据很难或昂贵。由此产生的标签可能是类别不平衡,嘈杂或人类偏见。从不完美注释的数据集中学习无偏分类模型是一项挑战,我们通常会遭受过度拟合或不足的折磨。在这项工作中,我们彻底研究了流行的软马克斯损失和基于保证金的损失,并提供了一种可行的方法来加强通过最大化最小样本余量来限制的概括误差。我们为此目的进一步得出了最佳条件,该条件指示了类原型应锚定的方式。通过理论分析的激励,我们提出了一种简单但有效的方法,即原型锚定学习(PAL),可以轻松地将其纳入各种基于学习的分类方案中以处理不完美的注释。我们通过对合成和现实世界数据集进行广泛的实验来验证PAL对班级不平衡学习和降低噪声学习的有效性。
translated by 谷歌翻译
基于深度学习的分类中特征表示的主要挑战之一是设计表现出强大歧视力的适当损失功能。经典的SoftMax损失并不能明确鼓励对特征的歧视性学习。研究的一个流行方向是将边缘纳入良好的损失中,以实施额外的课内紧凑性和阶层间的可分离性,但是,这是通过启发式手段而不是严格的数学原则来开发的。在这项工作中,我们试图通过将原则优化目标提出为最大的利润率来解决这一限制。具体而言,我们首先将类别的边缘定义为级别间的可分离性的度量,而样品边缘是级别的紧凑性的度量。因此,为了鼓励特征的歧视性表示,损失函数应促进类和样品的最大可能边缘。此外,我们得出了广义的保证金软损失,以得出现有基于边缘的损失的一般结论。这个原则性的框架不仅提供了新的观点来理解和解释现有的基于保证金的损失,而且还提供了新的见解,可以指导新工具的设计,包括样本保证金正则化和最大的平衡案例的最大保证金损失,和零中心的正则化案例。实验结果证明了我们的策略对各种任务的有效性,包括视觉分类,分类不平衡,重新识别和面部验证。
translated by 谷歌翻译
深神经网络(DNNS)在各种机器学习(ML)应用程序中取得了巨大成功,在计算机视觉,自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是,基于DNN的ML应用程序也带来计算和存储要求的增加了很多,对于具有有限的计算/存储资源,紧张的功率预算和较小形式的嵌入式系统而言,这尤其具有挑战性。挑战还来自各种特定应用的要求,包括实时响应,高通量性能和可靠的推理准确性。为了应对这些挑战,我们介绍了一系列有效的设计方法,包括有效的ML模型设计,定制的硬件加速器设计以及硬件/软件共同设计策略,以启用嵌入式系统上有效的ML应用程序。
translated by 谷歌翻译
卷积神经网络(CNN)的量化表现出显着的进展,其意图通过低比特宽度数据输入降低计算和存储成本。然而,没有关于现有全比特宽处理单元(例如CPU和DSP)的系统研究,可以更好地利用各种量化位线下的卷积的显着更高的计算吞吐量。在这项研究中,我们提出了Hikonv,一个统一的解决方案,它通过新的比特和平的并行计算来最大化给定底层处理单元的计算吞吐量来处理低比特宽量化数据输入。我们使用全比特宽乘法器建立理论性能范围,以实现高度并行化的低位宽卷积,并展示在该关键域中的高性能计算的新突破。例如,单个32位处理单元可以在一个CPU指令下提供128个二值化卷积操作(乘法和添加),并且单个27X18 DSP核心可以在一个周期中提供具有4位输入的八个卷积操作。我们展示了Hikonv对卷积层或完整的DNN模型的CPU和FPGA的有效性。对于量化为4位的卷积层,Hikonv在CPU上使用C ++实现了基线实现的3.17x延迟改进。与FPGA的DAC-SDC 2020冠军模型相比,HIKONV分别实现了2.37倍的吞吐量提高和2.61倍的DSP效率改进。
translated by 谷歌翻译
在硬件知识可分辨率神经结构中搜索(DNA),计算硬件度量梯度以执行架构搜索是具有挑战性的。现有工作依赖于线性近似,对定制硬件加速器的有限支持。在这项工作中,我们提出了端到端的硬件感知DNA(EH-DNA),无缝集成端到端硬件基准测试,以及全自动DNA,以在各种平台上提供硬件有效的深神经网络,包括边缘GPU,边缘TPU,移动CPU和定制加速器。考虑到期望的硬件平台,我们建议学习一种可分解​​模型,预测DNA的神经网络架构的端到端硬件性能。我们还介绍了E2E-PERF,用于定制加速器的端到端硬件基准测试工具。 CIFAR10和Imagenet的实验表明,EH-DNA平均提高了硬件性能,平均为您的定制加速器和现有硬件处理器的$ 1.6 \倍$ 1.6 \倍。
translated by 谷歌翻译
大多数现有的神经结构搜索(NAS)算法专用于下游任务,例如计算机视觉中的图像分类。然而,广泛的实验表明,突出的神经架构,例如计算机视觉和自然语言处理中的LSTM中的reset,通常擅长从输入数据中提取模式并在不同的下游任务上执行良好。在本文中,我们试图回答与NAS相关的两个基本问题。 (1)是否有必要使用特定的下游任务的性能来评估和搜索良好的神经架构? (2)我们可以有效且有效地执行NAS,同时对下游任务无关吗?要回答这些问题,我们提出了一种新颖和通用NAS框架,称为通用NAS(Genna)。 Genna不使用特定于特定的标签,而是通过对架构评估的一组手动设计的合成信号基础采用回归。这种自我监督的回归任务可以有效地评估架构的内在力量以捕获和转换输入信号模式,并允许更多地使用训练样本。在13个CNN搜索空间和一个NLP空间中的大量实验和一个NLP空间在评估神经架构(通过近似性能与下游任务性能之间的排名相关Spearman的RON)和收敛速度之间的rho(通过排名相关Spearman的Rho量化)来证明GennaS的显着效率培训(几秒钟内)。
translated by 谷歌翻译
最近,我们看到了基于深神经网络(DNN)的视觉跟踪解决方案的快速发展。一些跟踪器将基于DNN的解决方案与判别相关滤波器(DCF)相结合,以提取语义特征并成功地提供最新的跟踪准确性。但是,这些解决方案是高度计算密集型的,需要长时间处理时间,从而导致无抵押的实时性能。为了提供高精度和可靠的实时性能,我们提出了一个名为Siamvgg的新颖跟踪器。它结合了卷积神经网络(CNN)主链和互相关操作员,并利用示例图像中的功能以进行更准确的对象跟踪。 Siamvgg的体系结构是根据VGG-16自定义的,其参数由示例性图像和所需的输入视频帧共享。我们在OTB-2013/50/100和Dot 2015/2016/2017数据集中证明了拟议的暹罗,具有STATE-ORT-TEA-ART精度,同时保持在GTX 1080TI上运行的50 FPS的体面实时性能。与Dot2017挑战中的ECO和C-COT相比,我们的设计可以实现预期平均重叠(EAO)的预期平均重叠(EAO)。
translated by 谷歌翻译
We propose a network for Congested Scene Recognition called CSRNet to provide a data-driven and deep learning method that can understand highly congested scenes and perform accurate count estimation as well as present highquality density maps. The proposed CSRNet is composed of two major components: a convolutional neural network (CNN) as the front-end for 2D feature extraction and a dilated CNN for the back-end, which uses dilated kernels to deliver larger reception fields and to replace pooling operations. CSRNet is an easy-trained model because of its pure convolutional structure. We demonstrate CSRNet on four datasets (ShanghaiTech dataset, the UCF CC 50 dataset, the WorldEXPO'10 dataset, and the UCSD dataset) and we deliver the state-of-the-art performance. In the Shang-haiTech Part B dataset, CSRNet achieves 47.3% lower Mean Absolute Error (MAE) than the previous state-of-theart method. We extend the targeted applications for counting other objects, such as the vehicle in TRANCOS dataset. Results show that CSRNet significantly improves the output quality with 15.4% lower MAE than the previous state-ofthe-art approach.
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译